首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏圆圆的算法笔记

    Multilingual预训练的那些套路

    点关注,不迷路,定期更新干货算法笔记~ Multilingual是NLP中的研究热点之一,其中的一个研究方向是如何构建多语言预训练语言模型,实现不同语言的在隐空间的对齐,一个模型支持多语种的NLP任务, 这篇文章就为大家整理了Multilingual多语言预训练语言模型的套路,包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5个经典模型,以及这些模型之间的演进关系。 通过在BERT、GPT等成熟的NLP模型结构上同时学习多个语言的语料,并设计多语言对齐任务,实现了Multilingual预训练语言模型,应用到下游各种语言的任务中。 3 ERINE-M:回译的引入 ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with 除了本文介绍的预训练语言模型外,对比学习、meta-learning等方法在Multilingual中也有很多应用。

    1.1K21编辑于 2022-09-22
  • 来自专栏人工智能前沿讲习

    SFFAI分享 | 王亦宁:Multilingual Neural Machine Translation【附PPT与视频资料】

    首先对基于自注意力机制的神经网络机器翻译框架和多语言翻译进行了回顾; 介绍了多语言翻译的主流方法和近期的相关工作; 分享我们录用在ACL 2019上的工作A Compact and Language-Sensitive Multilingual [1]Parameter Sharing Methods for Multilingual Self-Attentional Translation Models.

    1.1K30发布于 2020-05-14
  • 来自专栏自然语言处理

    【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

    论文题目:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》 论文链接:https://arxiv.org/abs/2211.05100 为了解决这些问题,我们提出了BigScience Large Open-science Open-access Multilingual Language Model(BLOOM)。

    1.6K30编辑于 2023-08-25
  • 来自专栏大模型应用

    多语言文本嵌入模型解析:paraphrase-multilingual-MiniLM 与 all-MiniLM深度对比.123

    后来抱着试一试的心态换成了 paraphrase-multilingual-MiniLM,结果提升非常明显,语义区分度、跨句式表达的匹配度都好了一大截。 = calculate_similarity( results["multilingual"]["embeddings"]["english1"], results["multilingual = calculate_similarity( results["multilingual"]["embeddings"]["chinese1"], results["multilingual = [en_similarity_multilingual, cn_similarity_multilingual] english_scores = [en_similarity_english = test_inference_speed( "multilingual", MODEL_IDS["multilingual"], CACHE_DIR, test_texts_list

    12411编辑于 2026-05-31
  • 来自专栏雪之梦技术驿站

    gitbook 入门教程之自定义不一样的多语言首页插件

    .gitlab.io/gitbook-plugin-multilingual-index/ Gitee : https://snowdreams1006.gitee.io/gitbook-plugin-multilingual-index 这是最简单的示例: { "plugins": ["multilingual-index"], "pluginsConfig": { "multilingual-index master/docs/book.json { "plugins": ["multilingual-index"], "pluginsConfig": { "multilingual-index { "plugins": ["multilingual-index"], "pluginsConfig": { "multilingual-index": { 继承默认主页的示例 book.json 文件 { "plugins": ["multilingual-index"], "pluginsConfig": { "multilingual-index

    1.6K20发布于 2019-12-12
  • 来自专栏Elastic Stack专栏

    使用 Elastic 和 Mistral 构建多语言 RAG 系统

    您可以使用 Kibana 创建 e5 多语言嵌入:或者使用 _inference API:PUT _inference/text_embedding/multilingual-embeddings { "service": "elasticsearch", "service_settings": { "model_id": ".multilingual-e5-small", PUT multilingual-mistral{ "mappings": { "properties": { "super_body": { "type": "semantic_text", "inference_id": "multilingual-embeddings" } GET multilingual-mistral/_search{ "size": 2, "_source": { "excludes": ["*embeddings", "*

    79310编辑于 2024-08-05
  • 来自专栏AI科技评论

    ICLR 2022 | 字节提出:switch-GLAT,多语言非自回归机器翻译模型

    实验结果显示 switch- GLAT 的效果显著优于multilingual Transformer,同时翻译速度提升至 multilingual Transformer 的6.2倍。 如上方表格所示,switch-GLAT 不仅在翻译性能上打败了 multilingual Transformer,并且还能提升翻译速度至6.2倍。 Multi-way, multilingual neural machine translation with a shared attention mechanism.   Google’s multilingual neural machine translation system: Enabling zero-shot translation. Massively multilingual neural machine translation. NAACL 2019. [4] Gu et al.

    1.1K10编辑于 2022-06-02
  • 来自专栏从流域到海域

    Rerank进一步提升RAG效果

    BAAI/bge-reranker-v2-m3 bge-m3 Multilingual - Lightweight reranker model, possesses strong multilingual BAAI/bge-reranker-v2-gemma gemma-2b Multilingual - Suitable for multilingual contexts, performs well in both English proficiency and multilingual capabilities. BAAI/bge-reranker-v2-minicpm-layerwise MiniCPM-2B-dpo-bf16 Multilingual 8-40 Suitable for multilingual

    3.3K10编辑于 2024-05-16
  • 某中心发布涵盖51种语言的MASSIVE数据集

    其次,启动了一项使用MASSIVE数据集的新竞赛,名为Massively Multilingual NLU 2022(MMNLU-22)。 第三,将在2022年于阿布扎比和线上举行的EMNLP 2022会议上,共同主办一个同样名为Massively Multilingual NLU 2022的研讨会。 MMNLU竞赛和研讨会托管在eval.ai上的MASSIVE排行榜和Massively Multilingual NLU 2022竞赛由两个任务组成。 获胜者将被邀请在Massively Multilingual NLU 2022研讨会上进行口头报告。 Massively Multilingual NLU 2022研讨会与EMNLP 2022联合举办,将于12月7日或8日在阿布扎比现场和线上同时举行。

    20910编辑于 2025-12-15
  • 来自专栏深度学习自然语言处理

    吐血整理了下AAAI2022中和NLP相关的论文,包括信息抽取、机翻、NER、多模态、数据增强、问答、多语言、KD、文本纠错等

    Employing Optimal Transport Distance for Knowledge Distillation  Thong Nguyen, Luu Anh Tuan DetIE: Multilingual   Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein Parameter Differentiation Based Multilingual Translation  Qian Wang, Jiajun Zhang XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual   Apoorva Singh, Soumyodeep Dey, Anamitra Singha, Sriparna Saha 机器翻译 Parameter Differentiation Based Multilingual Mehdi Rezagholizadeh, Yiusing Lau, Qun Liu Interpreting Gender Bias in Neural Machine Translation: Multilingual

    2K20编辑于 2022-03-14
  • 🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入

    立即体验: Hugging Face模型: https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v2 GitHub KaLM-Embedding-V2 (我们) 494M 68.15 67.47 KaLM-Embedding-V1 494M 63.78 64.94 jina-embeddings-v3 572M 61.82 65.51 gte-multilingual-base 61.40 gte-Qwen2-1.5B-instruct 1.5B (3x) 67.12 67.19 e5-mistral-7b-instruct 7B (14x) 59.92 66.46 bge-multilingual-gemma2 越级挑战成功:我们的模型性能不仅远超同量级对手,甚至可以和gte-Qwen2-1.5B、e5-mistral-7b、bge-multilingual-gemma2 等参数量数倍于自己的重量级模型一较高下 中文领域的新里程碑:在 MTEB 中文榜单上,KaLM-Embedding-V2 的表现甚至超越了9B参数的 bge-multilingual-gemma2,树立了中文文本嵌入领域的新标杆。 ️

    1.3K21编辑于 2025-06-29
  • 深入解析 C++17 中的 u8 字符字面量:提升 Unicode 处理能力

    ;const char* multilingual = u8"日本語とEspañol";这些字符串在内存中直接以 UTF-8 格式存储,无需进行运行时的编码转换,从而提高了程序的效率。 "; const char* multilingual = u8"日本語とEspañol"; std::cout << "UTF-8 String: " << utf8String << std ::endl; std::cout << "Multilingual: " << multilingual << std::endl; return 0;}2.2 输出UTF-8 String : This is a UTF-8 encoded string.Multilingual: 日本語とEspañol3. u8 字符字面量的实际应用场景考虑一个需要支持多语言用户界面的应用程序。

    1.1K10编辑于 2025-01-20
  • 来自专栏NLP/KG

    2023计算机领域顶会(A类)以及ACL 2023自然语言处理(NLP)研究子方向领域汇总

    base construction)实体连接和消歧 (Entity linking and disambiguation)文档级抽取 (Document-level extraction)多语言抽取 (Multilingual Language contact)语言变迁 (Language change)语言变体 (Language variation)跨语言迁移 (Cross-lingual transfer)多语言表征 (Multilingual representation)多语言预训练 (Multilingual pre-training)多语言基线 (Multilingual benchmark)多语言评价 (Multilingual evaluation Resources and Evaluation)语料库构建 (Corpus creation)基线构建 (Benchmarking)语言资源 (Language resources)多语言语料库 (Multilingual 语法和基于知识的方法 (Grammar and knowledge-based approach)多任务方法 (Multi-task approaches)面向大型多语言的方法 (Massively multilingual

    2.6K10编辑于 2023-02-06
  • 来自专栏我还不懂对话

    BERT-Bidirectional Encoder Representations from Transformers

    BERT-Base, Multilingual: 102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters BERT-Base, Chinese 其他语言见: Multilingual README。开放了中文数据集。 BERT-Base, Multilingual: 102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters BERT-Base, Chinese

    82620发布于 2021-10-19
  • 来自专栏铭毅天下

    Elasticsearch 8.X “图搜图”实战

    4.2 clip-ViT-B-32-multilingual-v1工具选择 sentence-transformers/clip-ViT-B-32-multilingual-v1是OpenAI的CLIP-ViT-B32 模型地址:https://huggingface.co/sentence-transformers/clip-ViT-B-32-multilingual-v1 4.3 生成向量 如下的函数能将已有数据集图片生成向量 4.5 图搜图结果展示 5、小结 总结一下,图搜图功能的实现重点在于两个关键的组件:Elasticsearch和预训练模型 sentence-transformers/clip-ViT-B-32-multilingual-v1 另一方面,sentence-transformers/clip-ViT-B-32-multilingual-v1,这个预训练模型,基于OpenAI的CLIP模型,可以生成文本和图像的向量表示,这对于比较文本和图像的相似性至关重要 参考 1、https://huggingface.co/sentence-transformers/clip-ViT-B-32-multilingual-v1 2、https://github.com/

    1.5K10编辑于 2023-08-18
  • 来自专栏一点人工一点智能

    172篇 | COLING 2022论文集

    Mintaka:A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering2. Adapting to Non-Centered Languages for Zero-shot Multilingual Translation80. MultiCoNER:A Large-scale Multilingual dataset for Complex Named Entity Recognition101. MulZDG:Multilingual Code-Switching Framework for Zero-shot Dialogue Generation127. Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval143.

    90720编辑于 2022-12-28
  • 来自专栏新智元

    谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言

    戳这里直接使用: https://github.com/google-research/bert/blob/master/multilingual.md 模型 目前有两种多语言模型可供选择。 我们不打算发布更多单语言模型,但可能会在未来发布这两种模型的BERT-Large版本: BERT-Base, Multilingual: 102 languages, 12-layer, 768-hidden 请注意,英语的结果比MultiNLI baseline的84.2要差,因为这个训练使用的是Multilingual BERT模型,而不是English-only的BERT模型。 对于中文来说,用Multilingual BERT-Base和Chinese-only BERT-Base训练的中文模型的结果比较如下: 跟英语类似,单语言模型比多语言模型好3%。 GitHub地址: https://github.com/google-research/bert/blob/master/multilingual.md ----

    4.8K41发布于 2018-12-07
  • 来自专栏Y-StarryDreamer

    [自然语言处理|NLP] 多语言处理中的应用:从原理到实践

    import BertTokenizer, BertModel# 使用BERT进行多语言文本编码tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased ')model = BertModel.from_pretrained('bert-base-multilingual-cased')text = "Hello, how are you?" # 假设我们有一个包含多语言文本的文件with open("multilingual_corpus.txt", "r", encoding="utf-8") as file: multilingual_corpus = file.readlines()# 打印前几个句子for i in range(5): print(multilingual_corpus[i])4.2 语言表示技术 使用预训练的多语言表示模型

    1.4K160编辑于 2023-11-14
  • 来自专栏机器学习人工学weekly

    机器学习人工学weekly-2018/9/2

    Google Assistant支持同时语言混搭对话 Teaching the Google Assistant to be Multilingual 链接: https://ai.googleblog.com /2018/08/Multilingual-Google-Assistant.html 3.

    68240发布于 2018-10-08
  • 来自专栏追不上乌龟的兔子

    文本嵌入,语义搜索与sentence-transformers库

    我们这里使用的是 paraphrase-multilingual-MiniLM-L12-v2 模型,支持多语言,模型尺寸也比较大(480M)。 from sentence_transformers import SentenceTransformer, util model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12 ", cos_sim) # Cosine-Similarity: tensor([[0.7097]]) 上述代码中,我们使用 sentence-transformers 加载了 paraphrase-multilingual-MiniLM-L12 embedder = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2") # Corpus with example sentences embedder = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2") corpus_embeddings = embedder.encode

    2.7K10编辑于 2023-12-24
领券